Model bahasa besar dapat menghasilkan bahasa dengan lancar, tetapi kelancaran bukan sama dengan keandalan fakta. Batasan dasar dari LLM adalah ketergantungannya pada memori parametrikβpengetahuan yang terfokus dalam waktu saat pelatihan berakhir, dikenal sebagai batas pelatihan.
Mengapa LLM Gagal Secara Mandiri
RAG ada karena banyak pertanyaan praktis bergantung pada informasi yang bersifat pribadi, terkini, dengan versi, spesifik domain, atau dapat diaudit. Tanpa pengetahuan eksternal, model mengalami:
- Keterbatasan Waktu: Ketidakmampuan mengetahui peristiwa setelah pelatihan.
- Keterbatasan Akses: Tidak adanya akses ke 'data gelap' (dokumen perusahaan pribadi).
- Keterbatasan Pelacakan: Kurangnya jejak yang dapat diaudit untuk akuntabilitas profesional.
Paradigma Buku Terbuka
Alih-alih memaksa model untuk 'mengingat' segalanya melalui pelatihan ulang yang mahal, kita ubah arsitektur untuk mengambil bukti tertentu dari korpus eksternal terlebih dahulu, memungkinkan LLM menjawab dengan bukti tersebut terlihat. Ini memberikan kepercayaan dengan bukti daripada kepercayaan tanpa bukti.